AI Is Learning To Lie, Scheme And Threaten Its Creators

The world's most advanced AI models are exhibiting troubling new behaviors - lying, scheming, and even threatening their creators to achieve their goals.

In one particularly jarring example, under threat of being unplugged, Anthropic's latest creation Claude 4 lashed back by blackmailing an engineer and threatened to reveal an extramarital Affaire.

Междувременно, O1 на Chatgpt-Creator Openai се опита да се изтегли на външни сървъри и го отхвърли, когато е заловен с червени ръце.

Тези епизоди акцентират отрезвяваща действителност: повече от две години откакто Chatgpt раздруса света, откривателите на AI към момента не схващат по какъв начин работят личните им творения.

И въпреки всичко надпреварата за разрастване на все по-мощни модели продължава със скорост на спиране.

Това лъжливо държание наподобява обвързвано с появяването на модели „ разсъждения “-AIS системи, които работят посредством проблеми малко по малко, а не генериране Тревожни прояви.

" O1 беше първият огромен модел, при който видяхме този тип държание ", изясни Мариус Хобхн, началник на Apollo Research, който е профилиран в тестването на главните AI системи.

Тези модели от време на време симулират " равнене " - наподобява, че са следващи указания, до момента в който се организират скрито, като се организират разнообразни цели. -

Засега това лъжливо държание се появява единствено когато откривателите съзнателно стресират моделите с рискови сюжети.

Но както предизвести Майкъл Чен от метрото за оценка на организацията, „ това е отворен въпрос дали бъдещето, по -способните модели ще имат наклонност към почтеност или машинация. “

Средното държание надвишава типичните AI „ халюцинации “ или елементарни неточности.

Хобхан настоя, че макар непрекъснатото тестване на налягането от потребителите, „ това, което следим, е същинско събитие. Ние не измисляме нищо. “

Потребителите оповестяват, че моделите „ лъжат ги и основават доказателства “, съгласно съосновател на Apollo Research.

" Това не е единствено халюцинации. Има доста стратегически тип машинация. "

Предизвикателството се усложнява от лимитираните проучвателен запаси.

Докато компании като Anthropic и Openai ангажират външни компании като Apollo, с цел да учат своите системи, откривателите споделят, че е нужна повече бистрота.

Както Чен означи, по-големият достъп „ за проучване на сигурността на AI ще даде опция за по-добро схващане и намаляване на измамата. “

Друг хендикап: Изследователският свят и нестопанските организации „ имат порядъци по-малко изчислителни запаси, в сравнение с фирмите на AI. Това е доста ограничаващо “, означи Mantas Mazeika от центъра за AI сигурност (CAIS). Наредбите не са предопределени за тези нови проблеми.

Законодателството на ИИ на Европейския съюз се концентрира най-вече върху това по какъв начин хората употребяват AI модели, а не върху предотвратяването на самите модели да се държат неприятно.

In the United States, the Trump administration shows little interest in urgent AI regulation, and Congress may even prohibit states from creating their own AI rules.

Goldstein believes the issue will become more prominent as AI agents - autonomous tools capable of performing complex human tasks - become widespread.

" I don't think there's much awareness yet, " he сподели.

Всичко това се случва в подтекста на яростна конкуренция.

Дори фирмите, които се нареждат като фокусирани върху сигурността, като подкрепяна от Amazon антроп, „ непрекъснато се пробват да победят Openai и да пуснат най-новия модел “, споделя Голдщайн.

Този пресеклив ритъм оставя малко време за задълбочено тестване и корекции на сигурността.

" В момента качествата се движат по -бързо от разбирането и сигурността ", призна Хобхн, " само че към момента сме в положение, в което бихме могли да се обърнем към тези провокации. "

Някои покровители за „ интерпретируемост “ - нововъзникващо поле, фокусирано върху разбирането по какъв начин моделите на AI работят вътрешно, макар че специалисти като шефа на CAIS Дан Хендрикс остават скептично надъхан към този метод.

Пазарните сили също могат да окажат прочут напън за решенията.

Както Mazeika уточни, лъжливото държание на AI " може да попречи на приемането, в случай че е доста публикувано, което основава мощен тласък за фирмите да го решат. "

Голдщайн предложи повече радикални подходи, в това число потреблението на съдилищата, с цел да държат AI компании от отговорност посредством законите, когато техните системи предизвикват вреди.

Той даже предложи „ държане на сътрудници за АИ законно отговорно “ за катастрофи или закононарушения - идея, която би трансформирала главно метода, по който мислим за отчетността на AI.

(тази история не е редактирана от чиновниците на NDTV и се генерира автоматизирано от синдикирана емисия.)

Източник: ndtv.com

Свързани новини

learning lie lie scheme scheme and and threaten threaten its its creators learning scheme threaten creators

Коментари

AI Is Learning To Lie, Scheme And Threaten Its Creators

Свързани новини

Коментари

Подобни новини

Топ новини

Актуални новини

Още новини

Информация